World Bank Analyse

Dr. rer. nat. Noemi Castelletti, Elisabeth Lucke

Robin Billinger, Maximilian Frei, Leonie Mertes

PD Dr. Fabian Scheipl, Daniel Schlichting

2025-01-20

Agenda

  1. Überblick und Gruppierungen

  2. Datenanalyse

    2.1 HIV
    2.2 Bildung
    2.3 Tabakkonsum
    2.4 Landwirtschaft

  3. Zusammenfassung und Ausblick

Überblick

World Bank Datensatz

  • Erhebungsart: Longitudinal

  • 25 Länder untersucht

  • 18 verschiedene Indikatoren

  • Jährliche Messungen von 2000 bis 2021

Gruppierungen

  • durchschnittliche Ausprägung über die Jahre

  • verteilt auf Quantile

Quantil Q1 Q2 Q3 Q4 Q5
Prävalenz Alkoholkonsum Sehr gering Gering Mittel Groß Sehr groß
Anteil Grundbildung Sehr gering Gering Mittel Groß Sehr groß
Bevölkerungsdichte - Niedrig Mittel Hoch -
Einwohnerzahl - Gering Mittel Hoch -
Einkommensniveau - Gering Mittel Hoch -
Prävalenz Tabakkonsum Sehr gering Gering Mittel Groß Sehr groß
Landesfläche Sehr klein Klein Mittel Groß Sehr groß

2.1 HIV

Wie verhält sich die HIV-Prävalenz in der Bevölkerung zwischen 15 und 49 Jahren zum gesamten Alkoholkonsum pro Kopf?

2.1 HIV

2.1 HIV

2.1 HIV

Haben Länder mit einem höheren Prozentsatz der Erwerbsbevölkerung mit Grundbildung eine niedrigere HIV-Prävalenz unter den 15- bis 49-Jährigen?

2.1 HIV

2.1 HIV

2.2 Bildung

Haben Länder mit höherer Staatsverschuldung einen geringeren Anteil an Erwerbspersonen mit Grundbildung?

2.2 Bildung

2.2 Bildung

2.2 Bildung

2.2 Bildung

Führen mehr Erwerbstätige mit Grundbildung zu einer niedrigeren Schüler-Lehrer-Relation?

2.2 Bildung

2.2 Bildung

2.2 Bildung

Welche Auswirkungen haben niedrige Schüler-Lehrer-Relationen auf die Bildungsqualität?

2.2 Bildung

2.3 Tabakkonsum

In welchem Zusammenhang steht das Bruttoinlandsprodukt pro Kopf mit der Prävalenz des aktuellen Tabakkonsums unter Erwachsenen?

2.3 Tabakkonsum

2.3 Tabakkonsum

2.4 Landwirtschaft

Gibt es einen Zusammenhang zwischen dem Anteil der landwirtschaftlichen Nutzfläche und den CO2 Emissionen pro Kopf eines Landes?

2.4 Landwirtschaft

2.4 Landwirtschaft

Welcher Bedeutung fällt hierbei die Landesfläche eines Landes zu?

2.4 Landwirtschaft

2.4 Landwirtschaft

Zusammenfassung und Ausblick

  • HIV und Alkoholprävalenz und Grundbildung: jeweils eher positiver Zusammenhang

  • Grundbildung und Staatsverschuldung und Schüler-Lehrer-Relation: jeweils eher positiver Zusammenhang

  • Tabakkonsumprävalenz und BIP: eher positiver Zusammenhang

  • Landwirtschaftliche Nutzfläche und CO2 Emissionen: eher positiver Zusammenhang

Mögliche Informationen zu anderen Indikatoren, die weitere Erkenntnisse liefern könnten:

  • zu urbaner, forstwirtschaftlicher Fläche sowie Wasserfläche [% oder km2]

  • zur Quantifizierung von Bildungsqualität

Anhang

Anhang

Anhang

Anhang

Anhang

Jahr KLD (Breite = 2) KLD (Breite = 3) KLD (Breite = 4) KLD (Breite = 5)
2000 2.200456 1.3355127 0.7760908 0.4404161
2005 1.586584 0.8072496 0.4215260 0.2421420
2010 1.240258 0.5280582 0.2541619 0.1773269
2015 1.320069 0.5467187 0.2812418 0.2232322
2018 1.242548 0.5700443 0.3211268 0.2709994
2019 1.242548 0.5700443 0.3211268 0.2709994
2020 1.229573 0.5707539 0.3241600 0.2755441

Anhang

Anhang

Anhang

Anhang

Anhang

Anhang

Anhang

Anhang

Anhang

Anhang

Ordinary Least Squares (OLS) schätzt die Regressionskoeffizienten, indem die quadrierten Residuen minimiert werden:

\[ \min_{\beta} \sum_{i=1}^{n} (y_i - X_i \beta)^2 \]

Diese Methode liefert BLUE (Best Linear Unbiased Estimators) gemäß dem Gauss-Markov-Theorem, unter der Annahme normalverteilter Residuen. In realen Daten führen jedoch Verstöße gegen diese Annahme zu geringerer Effizienz, was sich auf Konfidenzintervalle und Hypothesentests auswirken kann.

Anhang

Um Ausreißer zu mildern, verwenden Robuste Lineare Modelle (RLMs) via MASS::rlm() das Verfahren der Iteratively Reweighted Least Squares (IRLS), wodurch der Einfluss extremer Werte reduziert wird.

Die Standard-psi-Funktion, psi.huber, nutzt die Huber-Loss-Funktion:

\[ L_{\delta}(r) = \begin{cases} \frac{1}{2} r^2 & \text{wenn } |r| \leq \delta, \\ \delta (|r| - \frac{1}{2} \delta) & \text{wenn } |r| > \delta. \end{cases} \]

wobei:

  • \(r\) ist das Residuum \(y_i - X_i\beta\)
  • \(\delta\) (Standardwert: 1.345) steuert die Robustheit

Anhang

Standardmäßig zeigt geom_smooth(method = MASS::rlm) Konfidenzintervalle an, aber MASS::rlm() berechnet keine Standardfehler. Stattdessen approximiert ggplot2 diese unter Verwendung der OLS-basierten Formel:

\[ CI = \hat{y} \pm t_{\alpha/2, df} \cdot SE(\hat{y}) \]

wobei:

  • \(\hat{y}\) ist der vorhergesagte Wert
  • \(SE(\hat{y})\) wird durch lokale Glättung approximiert
  • \(t_{\alpha/2, df}\) ist der kritische t-Wert

Anhang

Der Spearman-Korrelationskoeffizient misst die monotone Beziehung zwischen zwei Variablen. Im Gegensatz zum Pearson-Korrelationskoeffizienten, der nur lineare Beziehungen erfasst, bewertet der Spearman-Korrelationskoeffizient, ob mit dem Anstieg einer Variablen die andere tendenziell in einer konsistenten Reihenfolge steigt oder fällt.

\[ \rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)} \]

wobei:

  • \(d_i\) ist die Differenz zwischen den Rängen der entsprechenden Werte der beiden Variablen ist
  • \(n\) ist die Anzahl der Beobachtungen